马尔可夫决策过程
马尔可夫链是什么?
马尔可夫链是一种特殊类型的随机过程,它具有一个关键特性:马尔可夫性质。这意味着系统的未来状态仅依赖于当前状态,而与之前的历史状态无关。因此,马尔可夫链可以被视为随机过程的一个子类。

假设餐厅第一天供应了披萨,第二天供应了汉堡,第三天又供应了披萨。那么第四天供应热狗的概率是什么呢?
其实只需要看第三天的菜单就可以了,因为马尔可夫链的特性是未来状态只与当前状态有关,与历史状态无关。所以第四天供应热狗的概率就是 0.7。
需要明确的是,具有马尔可夫性并不代表这个随机过程就和历史完全没有关系。因为虽然 时刻的状态只与 时刻的状态有关,但是 时刻的状态其实包含了 时刻的状态的信息,通过这种链式的关系,历史的信息被传递到了现在。马尔可夫性可以大大简化运算,因为只要当前状态可知,所有的历史信息都不再需要了,利用当前状态信息就可以决定未来。
马尔可夫链的特点
- 离散时间步骤:马尔可夫链在离散的时间点上发展。
- 有限或可数无限状态:状态空间可以是有限的或无限的,但通常是可数的。
- 转移概率:从一个状态到另一个状态的概率是固定的,并且完全由当前状态决定。
马尔可夫链是随机过程的一种,但不是所有随机过程都是马尔可夫链。马尔可夫链的独特之处在于其记忆无关性(无记忆性质),即未来状态的概率分布只依赖于当前状态。
假设有一个简化的天气模型,其中只有两种状态:晴天(S)和雨天(R)。这个天气系统可以用马尔可夫链来模拟,其 中每天的天气只依赖于前一天的天气。
- 状态空间:
{晴天, 雨天} - 转移概率:
- 如果今天是晴天,明天也是晴天的概率是0.8,明天变成雨天的概率是0.2。
- 如果今天是雨天,明天仍然是雨天的概率是0.6,明天变成晴天的概率是0.4。
这个过程可以用以下转移概率矩阵表示:
| 当前\未来 | 晴天 | 雨天 |
|---|---|---|
| 晴天 | 0.8 | 0.2 |
| 雨天 | 0.4 | 0.6 |
在这个例子中,如果我们知道今天的天气,我们就可以使用上表的概率来预测明天的天气。例如,如果今天是晴天,那么明天有80%的概率是晴天,20%的概率是雨天。这就是马尔可夫链的核心特性:未来状态的概率仅由当前状态决定。
随机过程是什么?
随机过程是一种数学模型,用于描述随时间变化的随机事件。在随机过程中,每一个时间点上的状态或事件都是随机的,这与确定性过程(如线性方程等)形成对比。随机过程广泛应用于各种领域,包括物理学、金融学、工程学和生物学等。
基本概念
- 状态空间:随机过程可能出现的所有状态的集合。
- 样本路径:随时间演变的一系列状态的序列,可以看作是随机过程的一个实例。
- 时间参数:随机过程可以是离散时间的(例如,每天的股市收盘价)或连续时间的(例如,某个粒子的位置)。
随机过程的分类
- 离散时间随机过程:时间参数是离散的,例如每日股价。
- 连续时间随机过程:时间参数是连续的,例如布朗运动。
简单的数学例子
例子:抛硬币过程
假设我们连续抛硬币,记录每次抛硬币的结果。这可以视为一个简单的随机过程。
- 状态空间:
{正面, 反面} - 时间参数:离散时间,每次抛硬币代表一个时间步。
- 样本路径:例如,
{正面, 反面, 正面, 正面, ...}
在这个例子中,每次抛硬币的结果(状态)是随机的。如果我们假设硬币是公平的,则每次正面和反面出现的概率都是0.5。
如果用 表示时间 的硬币状态(0代表正面,1代表反面),则该随机过程可以表示为一系列随机变量 。每个变量 都遵循相同的概率分布,即:
- (正面的概率)
- (反面的概率)
这个简单的例子就展示了随机过程的基本思想:随时间的推移,状态按照某种概率规律变化。随机过程提供了一种框架,用于研究这种随时间变化的随机现象。
马尔可夫过程的性质
由上可以总结出马尔可夫过程的三个性质:
- 转移概率:马尔可夫过程中,从一个状态到另一个状态的转移是由转移概率决定的。这些概率通常用转移概率矩阵来表示。
- 状态独立性:未来的状态仅依赖于当前的状态,不依赖于如何到达当前状态。
- 可预测性:虽然每个状态的转移是随机的,但整体过程的统计特性是可预测的。
假设我们有一个简化版的股市模型,其中股市的状态可以是“上涨”(U)或“下跌”(D)。这个股市模型可以用马尔可夫过程来描述,其状态转移方程如下所示。
- 状态空间:
{上涨, 下跌} - 转移概率矩阵:
- 如果今天股市上涨,明天股市继续上涨的概率是0.7,明天股市下跌的概率是0.3。
- 如果今天股市下跌,明天股市上涨的概率是0.4,明天股市下跌的概率是0.6。
转移概率矩阵可以表示为:
| 当前\未来 | 上涨 | 下跌 |
|---|---|---|
| 上涨 | 0.7 | 0.3 |
| 下跌 | 0.4 | 0.6 |
在这个模型中,未来股市的状态(上涨或下跌)完全由当天的状态决定,与之前的趋势无关。这正是马尔可夫过程的特性。
与状态转移方程的联系:在马尔可夫过程中,状态转移方程是用来描述从一个状态到另一个状态转移的概率。在上面的股市模型中,状态转移方程就是转移概率矩阵,它提供了系统从一个状态到另一个状态转移的具体概率。这种方程是马尔可夫过程分析中的关键工具,它帮助我们预测未来状态的概率分布。通过这些概率,我们可以对系统的长期行为做出预测,即使每一步的状态转移都是随机的。
马尔可夫奖励过程是什么?
马尔可夫奖励过程(Markov Reward Process,简称 MRP)是马尔可夫过程的一种扩展,它在标准马尔可夫链的基础上增加了奖励的概念,通过加入奖励元素,它允许对在随机环境中做出决策的系统进行更全面的分析。这种模型特别适用于那些需要考虑长期收益和成本的情况。
在 MRP 中,每个状态不 仅有转移概率,还有与之相关联的奖励。这种模型在决策过程分析、强化学习和经济学等领域中非常有用。
马尔可夫奖励过程的组成:
- 状态集合:和普通的马尔可夫链一样,MRP 有一个定义明确的状态集合。
- 转移概率矩阵:描述从一个状态转移到另一个状态的概率。
- 奖励函数:为每个状态或状态转移指定一个奖励(或成本)。奖励函数通常表示为 或 ,分别表示在状态 获得的奖励,或从状态 转移到状态 时获得的奖励 。
- 折扣因子():一个介于0和1之间的值,用于确定未来奖励的当前价值。较低的折扣因子意味着未来的奖励在当前的价值上打了折扣,即强调对即时奖励的重视。
MRP关注的是状态转移过程中的累积奖励。这种过程的目的通常是最大化某种形式的总奖励,比如长期累积奖励或折扣累积奖励。MRP通过考虑从每个状态出发的长期奖励来分析和优化决策。
假设有一个简单的游戏,游戏板上有三个状态:A、B和C。玩家从A开始,可以移动到B或C,游戏在达到C时结束。
- 状态集合:
{A, B, C} - 转移概率:
- A -> B: 0.5
- A -> C: 0.5
- B -> C: 1
- C 是吸收状态,意味着游戏结束。
- 奖励函数:
- A -> B: 奖励为 +5
- A -> C: 奖励为 +10
- B -> C: 奖励为 +10
在这个 MRP 中,玩家的目标是最大化从A到C的累积奖励。通过计算不同路径的预期回报,可以评估哪种策略最优。
获得回报
在马尔可夫奖励过程(MRP)中,回报 是指 从一个状态到达另一个状态时获得的奖励值